5.4 The Product Moment Correlation Coefficient

积矩相关系数 - 知识点总结

核心知识点总结

概念定义

积矩相关系数(Product Moment Correlation Coefficient),又称皮尔逊相关系数(Pearson Correlation Coefficient),是衡量两个连续变量之间线性关系强度和方向的统计量。

符号表示

通常用符号 r 表示样本相关系数,用 ρ(rho)表示总体相关系数。

取值范围

积矩相关系数的取值范围在 -1 到 +1 之间,其中 -1 表示完全负相关,+1 表示完全正相关,0 表示无线性相关。

适用条件

适用于两个连续型变量,且变量应满足双变量正态分布,或至少近似正态分布。

计算公式

公式 1:基于离均差的形式

\[r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}}\]

其中:

\[S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\]

\[S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2\]

\[S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2\]

\(\bar{x}\) 和 \(\bar{y}\) 分别是变量 x 和 y 的平均值,n 是样本量。

公式 2:直接计算形式(更常用)

\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}\]

相关系数解释标准

相关系数值范围 中文解释 英文解释
|r| > 0.9 极高相关 Very high correlation
0.7 < |r| ≤ 0.9 高度相关 High correlation
0.5 < |r| ≤ 0.7 中度相关 Moderate correlation
0.3 < |r| ≤ 0.5 低度相关 Low correlation
|r| ≤ 0.3 极弱相关或无相关 Very weak or no correlation

应用场景

科学研究

  • 探索变量间的关系模式
  • 验证理论假设
  • 变量筛选和模型构建

经济分析

  • 研究不同经济指标之间的关联
  • 投资组合分析
  • 市场趋势预测

教育研究

  • 分析学习因素与学习成果的关系
  • 评估教学方法的有效性
  • 学生能力评估

医学研究

  • 考察生理指标之间的联系
  • 分析治疗方法的效果
  • 风险因素识别

局限性

主要局限性

  1. 仅衡量线性关系:积矩相关系数只适用于衡量变量之间的线性关系,无法捕捉非线性关系。
  2. 受异常值影响:极端异常值可能显著改变相关系数的计算结果。
  3. 相关不等于因果:高度相关并不意味着存在因果关系,可能存在第三方变量的影响。
  4. 样本量的影响:小样本情况下相关系数不稳定,容易受随机波动影响。
  5. 范围限制问题:变量取值范围受限时(截断数据),相关系数可能低估真实相关程度。

计算步骤总结

计算积矩相关系数的步骤

  1. 收集成对数据(x, y)
  2. 计算必要的统计量:\(\sum x\)、\(\sum y\)、\(\sum xy\)、\(\sum x^2\)、\(\sum y^2\)
  3. 计算样本量 n
  4. 代入公式计算相关系数 r
  5. 解释相关系数的意义(强度和方向)

注意事项

使用积矩相关系数的注意事项

关键术语中英文对照表

中文术语 英文术语
积矩相关系数 Product Moment Correlation Coefficient
皮尔逊相关系数 Pearson Correlation Coefficient
正相关 Positive Correlation
负相关 Negative Correlation
完全相关 Perfect Correlation
线性相关 Linear Correlation
非线性相关 Non-linear Correlation
协方差 Covariance
标准差 Standard Deviation
样本相关系数 Sample Correlation Coefficient
The Product Moment Correlation Coefficient